Model Selection

1K image processing

# 1K image processing

Sapiens Seg 0.6b Bfloat16

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024x1024 resolution human images, focusing on human-centric vision tasks.

Image Segmentation English

Sapiens Pose 1b Bfloat16

Sapiens is a vision transformer series model pre-trained on 300 million 1024x1024 resolution human images, focusing on human-centric vision tasks.

Pose Estimation English

Sapiens Depth 2b

Sapiens is a family of vision Transformer models pre-trained on 300 million 1024×1024 resolution human images, focusing on human-centric vision tasks.

3D Vision English

Sapiens Seg 0.3b

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024×1024 resolution human images, focusing on human-centric vision tasks.

Image Segmentation English

Sapiens Pretrain 0.6b

Sapiens is a Vision Transformer model pre-trained on 300 million 1024×1024 resolution human images, excelling in human-centric vision tasks.

Image Classification English

Sapiens Pretrain 1b

Sapiens is a vision Transformer model pretrained on 300 million high-resolution human images, focusing on human-centric vision tasks.

Face-related English

Sapiens Seg 1b Torchscript

Sapiens is a series of vision transformers pre-trained on 300 million 1024×1024 resolution human images, specifically designed for human-centric vision tasks with exceptional generalization capabilities.

Image Segmentation English

Sapiens Pose 1b Torchscript

Sapiens is a vision Transformer model pre-trained on 300 million 1024x1024 resolution human images, specifically designed for high-precision pose estimation tasks.

Pose Estimation English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase